Loading...
机构名称:
¥ 1.0

玩。这种能力体现了人类从视觉体验中学习开放式摄影的物理互动技能的能力,并将这些技能应用于新颖的对象和动作。为交互式设备提供此能力仍然是一个重大挑战。最近的身体技能学习方法主要依赖于模仿学习来获取现实的物理性和互动[29,31]。然而,这种方法限制了它们通过新颖的教学和环境来实现无法预见的场景的适应性。此外,在当前模型中忽略了物理定律会导致不自然和不切实际的动作,例如浮动,穿透和脚滑动,尝试整合基于物理的惩罚[58,64]和碰撞[13,57,66]。增强身体受限运动的一般性对于降低对特定数据集的依赖并培养对世界的更深刻理解至关重要。在概括性之上,最终目标是从任何文本输入中产生自然和互动动作,称为实现开放词汇,从而大大增加了问题的复杂性。几项研究使用了大规模预处理的模型[11,19,37,43]进行了开放式运动运动。然而,这些模型努力产生自然动作,尤其是需要了解更广泛的环境环境或对象相互作用的交互运动[11,19,43]。这确保了每个动作的自然性和身体合理性。我们确定了对新任务和与环境的相互作用能力的运动概括性的差距,假设这是由于依赖于即兴的状态表示形式以及先前工作中手动制作的奖励机制所致。受到人类从视觉输入学习新物理技能的能力的启发,我们建议利用视觉模型(VLM)提供灵活且可赋予的状态表示和基于图像的奖励,以提供开放式播放式技能技能学习。我们介绍了Anyskill,这是一个层次结构框架,旨在使虚拟代理具有学习开放式播放式物理互动技能的能力。Anyskill将共享的低级控制器与针对每个指令量身定制的高级政策相结合,通过平静[42],通过生成的广泛模仿学习(GAIL)来学习潜在的原子动作曲目(GAIL)。然后,对于任何开放式文本文本指令,高级控制策略会动态选择潜在的原子动作,以优化代理的呈现图像和文本指令之间的剪辑[35]相似性。此策略保持物理上的合理性,并允许代理商根据广泛的文本说明行动。通过利用剪辑相似性作为灵活而直接的奖励机制,我们的方法克服了环境局限性,从而促进了与任何物体的相互作用。尽管取得了进步,但为开放式摄影模型创建自然和互动行为仍然是一个持续的挑战。

arxiv:2403.12835v1 [CS.CV] 2024年3月19日

arxiv:2403.12835v1 [CS.CV] 2024年3月19日PDF文件第1页

arxiv:2403.12835v1 [CS.CV] 2024年3月19日PDF文件第2页

arxiv:2403.12835v1 [CS.CV] 2024年3月19日PDF文件第3页

arxiv:2403.12835v1 [CS.CV] 2024年3月19日PDF文件第4页

arxiv:2403.12835v1 [CS.CV] 2024年3月19日PDF文件第5页

相关文件推荐